إتقان الذكاء الاصطناعي ReBeL للعبة البوكر يتفوق على البشر
27.09.2025

قام مطورو Facebook بإنشاء إطار عمل للذكاء الاصطناعي العام يُعرف باسم التعلم القائم على الاعتقاد المتكرر (ReBeL) والذي أثبت نفسه من خلال التفوق في لعبة كانت صعبة لفترة طويلة على برامج الذكاء الاصطناعي: بوكر تكساس هولدم.

ينفذ إطار عمل ReBeL مفاهيم جديدة تسمح له بالتعامل بشكل أفضل مع جوانب المعلومات الجزئية للبوكر ، وحتى التفوق على لعبة بوكر خارقة سابقة ، Libratus.
"حالات الاعتقاد العام" تساعد في التعلم الذاتي
في السنوات الأخيرة ، أظهرت أنظمة الذكاء الاصطناعي قدرة لا تصدق على اختراق مجموعة متنوعة من الألعاب المعقدة. تمكن برنامج AlphaZero التابع لـ DeepMind من تعليم نفسه الشطرنج والشوجي (الشطرنج الياباني) والجو من القواعد الأساسية لكل منها ، وذلك باستخدام اللعب الذاتي للوصول إلى آفاق جديدة في جميع الألعاب الثلاث في غضون ساعات.
استخدم Libratus أيضًا اللعب الذاتي لتعلم لعبة Hold'em بدون حدود ذات الرأسين. يفعل ReBeL الشيء نفسه ، ولكنه يتضمن مفهومًا جديدًا لما يشكل "حالة اللعبة" ، مما يسمح للذكاء الاصطناعي بفهم ألعاب المعلومات المخفية بشكل أفضل أثناء اللعب الذاتي.
ينظر ReBeL في معلومات حول حالة اللعبة المرئية ، مثل البطاقات المعروفة ، وحجم الرهان ، وحتى مجموعة الأيدي التي قد يمتلكها الخصم. بالإضافة إلى ذلك ، فإنه يأخذ في الاعتبار أيضًا "اعتقاد" كل لاعب حول الحالة التي يوجدون فيها ، على غرار الطريقة التي قد يفكر بها الإنسان فيما إذا كان الخصم يعتقد أنه متقدم أو متأخر في اليد.
للقيام بذلك ، يقوم ReBeL بالفعل بتدريب نموذجين مختلفين للذكاء الاصطناعي من خلال التعلم المعزز للعب الذاتي: شبكة القيمة وشبكة السياسات. ثم يعمل الذكاء الاصطناعي على ما يسميه الباحثون حالات الاعتقاد العام ، أو PBS. في لعبة معلومات مثالية مثل الشطرنج ، يكفي ببساطة وجود حالة اللعبة لاتخاذ قرارات مثالية. تعتبر PBS كلاً من حالة اللعبة وعوامل مثل سياسات كلا اللاعبين لتقديم نموذج احتمالي كامل لجميع الإجراءات المحتملة التي قد يتخذها اللاعب ، وكيف يمكن أن تتحول.
وفقًا للباحثين ، فقد تفوق ReBel في ألعاب المعلومات غير الكاملة بفضل هذا النهج. أجرى فريق Facebook تجارب لعب فيها ReBel إصدارات لاعبين من Hold'em و Turn Endgame Hold'em - نسخة مبسطة من اللعبة بدون زيادات في جولتي الرهان الأوليين - و Liar's Dice.
ReBeL يتفوق على Libratus ضد عدو بشري
النتيجة هي ذكاء اصطناعي لا ترغب في مواجهته عبر اللعبة الافتراضية. هزم ReBeL متخصص المواجهات الثنائية Dong Kim بمقدار 165 جزء من الألف من الرهان الكبير لكل يد في مباراة مكونة من 7500 يد. وهذا أعلى من 147 جزء من الألف من الرهان الكبير الذي هزم به Libratus أربعة لاعبين بشريين في عام 2017. وقد يقلل ذلك من قيمة التحسن ، ومع ذلك: فاز Libratus على Dong Kim بمقدار 29 جزءًا من الألف من الرهان الكبير لكل يد في تلك المباراة.
إذا كنت قلقًا بشأن احتمال مواجهة خصم يقوم بتشغيل ReBeL عبر الإنترنت ، فقد اتخذ الباحثون الاحتياطات اللازمة ضد حدوث ذلك.
كتب الفريق في ورقته: "إن الخطر الأكثر إلحاحًا الذي يشكله هذا العمل هو احتمالية الغش في الألعاب الترفيهية مثل البوكر". "ويرجع ذلك جزئيًا إلى هذا السبب ، فقد قررنا عدم إصدار الكود الخاص بالبوكر."
لقد أصدروا تطبيقهم مفتوح المصدر لـ Liar's Dice للمساعدة في البحوث المستقبلية. يعتقد المطورون أن ReBeL يمكن أن يساعد في تطوير خوارزميات أفضل لإيجاد التوازن العام مع تطبيقات في المزادات والمفاوضات والأمن السيبراني والمركبات ذاتية القيادة ، من بين مجالات أخرى.